Enseñar el método, no la respuesta: Destilación privilegiada multimodal
Descubre cómo PTD-PO optimiza políticas multimodales sin revelar respuestas, mejorando el razonamiento complejo.
Descubre cómo PTD-PO optimiza políticas multimodales sin revelar respuestas, mejorando el razonamiento complejo.